Search CORE

117 research outputs found

Séparateurs à Vaste Marge pondérés en norme l2 pour la sélection de variables en apprentissage d’ordonnancement

Author: Dejean Sébastien
Laporte Léa
Mothe Josiane
Publication venue: HAL CCSD
Publication date: 01/01/2014
Field of study

National audienceLearning to rank algorithms are dealing with a very large amount of features to automatically learn ranking functions, which leads to an increase of both the computational cost and the number of noisy redundant features. Feature selection is seen as a promising way to address these issues. In this paper, we propose new feature selection algorithms for learning to rank based on reweighted l2 SVM approaches. We investigate a l2-AROM algorithm to solve the l0 norm optimization problem and a generic l2-reweighted algorithm to approximate l0 et l1 norm SVM problems with l2 norm SVM. Experiments show that our algorithms are up to 10 times faster and use up to 7 times less features than state-of-the-art methods, without lowering the ranking performance.Les algorithmes d’apprentissage d’ordonnancement utilisent un très grand nombre de caractéristiques pour apprendre les fonctions d’ordonnancement, entraînant une augmentation des temps d’exécution et du nombre de caractéristiques redondantes ou bruitées. La sélection de variables est une méthode prometteuse pour résoudre ces enjeux. Dans cet article, nous pro- posons de nouvelles méthodes de sélection de variables en apprentissage d’ordonnancement basées sur des approches de pondération des SVM en norme l2. Nous proposons une adap- tation d’une méthode l2-AROM pour la résolution des SVM en norme l0 et un algorithme générique de pondération de la norme l2 qui résout les problèmes en norme l0 et l1. Nos ex- périmentations montrent que les méthodes proposées sont jusqu’à 7 fois plus rapides et 10 fois plus parcimonieuses que l’état de l’art, pour des qualités d’ordonnancement équivalentes

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte

HAL-INSA Toulouse

Learning to Choose : automatic Selection of the Information Retrieval Parameters

Author: Bigot Anthony
Dejean Sébastien
Mothe Josiane
Publication venue: HAL CCSD
Publication date: 01/01/2014
Field of study

International audienceIn this paper we promote a selective information retrieval process to be applied in the context of repeated queries. The method is based on a training phase in which the meta search system learns the best parameters to use on a per query basis. The training phase uses a sample of annotated documents for which document relevance is known. When an equal-query is submitted to the system, it automatically knows which parameters it should use to treat the query. This Learning to choose method is evaluated using simulated data from TREC campaigns. We show that system performance highly increases in terms of precision (MAP), speci cally for the queries that are di cult to answer, when compared to any unique system con guration applied to all the queries

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte

HAL-INSA Toulouse

Outils pour chercher de l'information sur R et se former

Author: Bontemps Christophe
Dejean Sébastien
Vialaneix Nathalie
Publication venue: HAL CCSD
Publication date: 01/01/2016
Field of study

National audienceDans cette proposition de communications, nous nous proposons de faire le tour de ressources disponibles en ligne pour rechercher des informations sur R, son installation, son utilisation ainsi que de celles qui permettent de se former. Notre ambition n'est pas de fournir une liste exhaustive de ces ressources mais, devant le foisonnement et le développement de sites web, blogs et ressources diverses concernant le logiciel, de faire un descriptif organisé de celles que nous avons utilisées ou appréciées

Scientific Publications of the University of Toulouse II Le Mirail

Évaluation de la pertinence dans les moteurs de recherche géoréférencés

Author: Candillier Laurent
Dejean Sébastien
Laporte Léa
Mothe Josiane
Publication venue: HAL CCSD
Publication date: 29/05/2012
Field of study

National audienceLearning to rank documents on a search engine requires relevance judgments. We introduce the results of an innovating study on relevance modeling for local search engines. These search engines present search results on a map or as a list of maps. Each map contains all the attributes of a place (noun, address, phone number, etc). Most of these attributes are links users can click. We model the relevance as the weighted sum of all the clicks on a result. We obtain good results by fixing the same weight for each component of the model. We propose a relative order between clicks to determine the optimal weights.Optimiser le classement des résultats d’un moteur par un algorithme de learning to rank nécessite de connaître des jugements de pertinence entre requêtes et documents. Nous présentons les résultats d’une étude pilote sur la modélisation de la pertinence dans les moteurs de recherche géoréférencés. La particularité de ces moteurs est de présenter les résultats de recherche sous forme de carte géographique ou de liste de fiches. Ces fiches contiennent les caractéristiques du lieu (nom, adresse, téléphone, etc.) dont la plupart sont cliquables par l’utilisateur. Nous modélisons la pertinence comme la somme pondérée des clics sur le résultat. Nous montrons qu’équipondérer les différents éléments du modèle donne de bons résultats et qu’un ordre d’importance entre type de clics peut être déduit pour déterminer les pondérations optimales

Scientific Publications of the University of Toulouse II Le Mirail

HAL-INSA Toulouse

Unravelling 'omics' data with the R package mixOmics

Author: Dejean Sébastien
González Ignacio
Lê Cao Kim-Anh
Publication venue: HAL CCSD
Publication date: 02/07/2012
Field of study

Unravelling 'omics' data with the R package mixOmic

Scientific Publications of the University of Toulouse II Le Mirail

HAL-INSA Toulouse

Performance Analysis of Information Retrieval Systems

Author: Ayter Juli
Chifu Adrian-Gabriel
Dejean Sébastien
Desclaux Cecile
Mothe Josiane
Publication venue: HAL CCSD
Publication date: 01/01/2014
Field of study

International audienceIt has been shown that there is not a best information retrieval system configuration which would work for any query, but rather that performance can vary from one query to another. It would be interesting if a meta-system could decide which system should process a new query by learning from the context of previously submitted queries. This paper reports a deep analysis considering more than 80,000 search engine configurations applied to 100 queries and the corresponding performance. The goal of the analysis is to identify which search engine configuration responds best to a certain type of query. We considered two approaches to define query types: one is based on query clustering according to the query performance (their difficulty), while the other approach uses various query features (including query difficulty predictors) to cluster queries. We identified two parameters that should be optimized first. An important outcome is that we could not obtain strong conclusive results; considering the large number of systems and methods we used, this result could lead to the conclusion that current query features does not fit the optimizing problem

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte

HAL-INSA Toulouse

Does probabilistic modelling of linkage disequilibrium evolution improve the accuracy of QTL location in animal pedigree?

Author: Cierco-Ayrolles Christine
Dejean Sébastien
Druet Tom
Estivals Delphine
Gilbert Hélène
Legarra Andrés
Mangin Brigitte
Oumouhou Naïma
Ytournel Florence
Publication venue: EDP Sciences
Publication date: 01/01/2010
Field of study

peer reviewe

Scientific Publications of the University of Toulouse II Le Mirail

Springer - Publisher Connector

PubMed Central

HAL Descartes

HAL-INSA Toulouse

Open Repository and Bibliography - Liège

ProdInra

Quinze ans de recherche appliquée en science des données

Author: Dejean Sébastien
Publication venue: HAL CCSD
Publication date: 17/05/2019
Field of study

Ce mémoire synthétise quinze ans d’activités scientifiques à l’Institut de Mathématiques de Toulouse. Il fait état de mon rôle dans des travaux de recherche interdisciplinaires autour de l’analyse de données. Dans ce cadre, au-delà de la mise en œuvre de méthodes statistiques, c’est toute une méthodologie que j’ai développée pour exploiter au mieux et valoriser des données. Ainsi, après avoir livré quelques réflexions sur la notion de donnée dans un premier chapitre, je consacre le deuxième chapitre à l’élaboration d’une méthodologie de travail dans le cadre de collaborations interdisciplinaires. J’illustre sa construction et sa mise en œuvre à travers plusieurs cas d’étude liés notamment à l’analyse de données issues de bio-technologies à haut-débit. Cette méthodologie s’étend de la formulation d’une question précise à l’interprétation des résultats d’une méthode statistique permettant potentiellement d’y répondre. Elle s’intègre naturellement dans ce qu’il est devenu courant d’appeler la science des données. Le troisième chapitre se focalise sur ma thématique privilégiée : l’intégration de données. Ce thème de recherche vise à développer des démarches ou des méthodes visant à extraire une information plus pertinente en analysant globalement plusieurs jeux de données plutôt qu’en les analysant séparément. Cette thématique est illustrée d’abord dans le cadre de la recherche d’information puis dans celui de l’analyse de données biologiques. Dans ce dernier cas, j’ai contribué au développement de nouvelles méthodes statistiques ainsi qu’à leur dissémination auprès de la communauté des biologistes. Pour cela, j’ai régulièrement supervisé la mise en œuvre de ces nouvelles méthodes dans des projets de recherche, j’ai encadré des étudiants en thèse et master et j’ai également contribué à la mise à disposition d’outils logiciels pour lesquels j’ai aussi assuré des actions de formation. Enfin, le quatrième chapitre est consacré à mes activités de soutien à la recherche

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL-INSA Toulouse

Visual clustering for data analysis and graphical user interfaces

Author: Dejean Sébastien
Mothe Josiane
Publication venue: 'Informa UK Limited'
Publication date: 16/12/2015
Field of study

International audienceCluster analysis is a major method in data mining to present overviews of large data sets. Clustering methods allows dimension reducing by finding groups of similar objects or elements. Visual cluster analysis has been defined as a specialization of cluster analysis and is considered as a solution to handle complex data using interactive exploration of clustering results. In this chapter, we consider three cases studies in order to illustrate cluster analysis and interactive visual analysis. The first case study is related to information retrieval field and illustrates the case of multi-dimensional data in which objects to analyze are represented considering various features or variables. Evaluation in information retrieval considers many performance measures. Cluster analysis is used to reduce the number of measures to a small number that can be used to compare various search engines. The second case study considers networks in which data to analyze is represented in the form of matrices that correspond to adjacency matrices. The data we used is obtained from publications; cluster analysis is used to analyze collaborative networks. The third case study is related to curve clustering and applies when temporal data is involved. In this case study, the application is time series gene expression. We conclude this chapter by presenting some other types of data for which visual clustering can be used for analysis purposes and present some tools that implement other visual analysis functionalities we did not present in the case studies

Crossref

Scientific Publications of the University of Toulouse II Le Mirail

HAL-INSA Toulouse

Contribution of an integrative study to the understanding of plant adaptation to their environment: A focus on plant cell walls.

Author: Dejean Sébastien
Duruflé Harold,
Publication venue: HAL CCSD
Publication date: 21/10/2020
Field of study

National audienc

HAL-INSA Toulouse